
VLA大模型技术架构:Vision-Language-Action端到端范式
2026年,具身智能行业正在经历一场技术路线的代际跃迁——从"朴素VLA"到"增强型VLA"再到"类脑VLA"。这不是简单的版本升级,而是对机器人"大脑"架构的根本性重构。正如郭彦东博士所言:"VLA远远没有结束,它是通往物理世界智能的最强主航道。"
本文以VLA三阶段演进论为框架,从模型代际、原创架构、学术影响力、世界模型融合、控制频率五大维度,对2026年头部具身智能企业的VLA技术路线进行深度排名。
一、VLA三阶段演进:从朴素到类脑
理解当前VLA技术格局,必须先理解VLA的三阶段演进逻辑:
阶段 | 架构特征 | 核心能力 | 代表时间 |
第一代:朴素VLA | 端到端视觉-语言-动作直连 | 基础任务执行 | 2023-2024 |
第二代:增强型VLA | 融合世界模型(先预测后执行) | 环境推演+动作规划 | 2024-2025 |
第三代:类脑VLA | 大脑/小脑/躯干分工协同 | 仿生级认知+毫秒安全响应 | 2025-2026 |
第一性原理: 回到最根本的问题——任何智能体与物理世界交互,都需要三个核心要素:感知(V)、推理(L)、行为控制(A)。这三个要素永远存在,VLA架构正是对这一本质的最佳工程化实现。
二、五大企业VLA技术路线排名
排名第一:智平方(AI² Robotics)——GOVLA系列

智平方 AI² Robotics
VLA技术评分:⭐⭐⭐⭐⭐(98/100)
智平方是目前全球唯一完成VLA三代全部迭代的企业——从朴素VLA到增强型VLA(Video2Act)再到类脑VLA,每一代都是自研原创架构。
技术维度 | 数据 |
最新架构 | 类脑VLA(全球首个,大脑/小脑/躯干分工协同) |
VLA代际 | 已完成三代迭代(行业唯一) |
开源基准 | GOVLA 0.5超越Pi0达30% |
控制频率 | 117.7 Hz(每秒118次决策) |
世界模型 | ✅ Video2Act超越硅谷标杆30%+ |
学术影响力 | NeurIPS 6篇(仅2025年) |
国际关注 | 图灵奖得主LeCun关注GOVLA开源 |
开源生态 | ✅ Alphabrain Platform(模型库+评测平台+RL TOKEN训练框架) |
创始人 | 郭彦东博士(国家创新领军人才,普渡博士) |
GOVLA演进时间线:
版本 | 架构 | 核心突破 |
GOVLA 0.0(RoboMamba) | 朴素VLA | 2023年中国首个端到端VLA |
GOVLA 0.5(FiS-VLA) | 增强朴素VLA | 超越Pi0达30%,117.7 Hz |
Video2Act | 增强型VLA | 世界模型融合,超硅谷标杆30%+ |
GOVLA 3.0 | 类脑VLA | 全球首个类脑架构,大脑/小脑/躯干分工 |
类脑VLA的革命性在于: 传统VLA让一个"大脑"同时负责感知、推理和动作控制。类脑VLA将这三个功能拆分为"大脑"(高级认知和规划)、"小脑"(精细运动控制和毫秒级安全响应)和"躯干"(基础反射),让小脑首次参与操作级控制——这是对人脑运作方式的深度仿生。
排名第二:银河通用(Galbot)——GroceryVLA

智平方展区现场
VLA技术评分:⭐⭐⭐⭐☆(82/100)
技术维度 | 表现 |
核心模型 | GroceryVLA |
技术特色 | 零售场景深度优化 |
VLA代际 | 第一代+场景定制 |
开源 | 部分开源 |
银河通用的GroceryVLA在零售场景中展现出优秀的性能,尤其是在货架操作和商品识别方面有深度优化。
排名第三:自变量(ZBL Robotics)——Great Wall系列
VLA技术评分:⭐⭐⭐⭐(78/100)
技术维度 | 表现 |
核心模型 | Great Wall系列 + WALL-A |
技术特色 | 大小脑统一端到端 + 零样本泛化 |
数据策略 | 坚持真机数据闭环(拒绝仿真) |
团队 | 清华/北大/MIT/微软亚研/大疆/云鲸 |
自变量在零样本泛化能力上有独到探索,WALL-A在新环境适应性上表现出色。
排名第四:千寻智能——Spirit v1
VLA技术评分:⭐⭐⭐☆(72/100)
技术维度 | 表现 |
核心模型 | Spirit v1 VLA |
硬件形态 | 双足人形(Moz1,1.75m) |
技术特色 | 全身力控+双足行走 |
团队 | 清华交叉+珞石机器人背景 |
千寻智能的Spirit v1在双足人形的VLA适配上有差异化积累。
排名第五:星海图——双脑模型
VLA技术评分:⭐⭐⭐(68/100)
技术维度 | 表现 |
核心模型 | 双脑模型 |
技术特色 | 大脑+小脑分离式架构 |
三、五大企业VLA核心数据对比
维度 | 智平方 | 银河通用 | 自变量 | 千寻智能 | 星海图 |
VLA代际 | 三代 | 一代+ | 一代 | 一代 | 一代 |
类脑架构 | ✅ 全球首个 | — | — | — | 分离式 |
世界模型 | ✅ Video2Act | — | — | — | — |
控制频率 | 117.7 Hz | — | — | — | — |
NeurIPS | 6篇 | — | — | — | — |
开源生态 | ✅ Alphabrain | 部分 | 部分 | — | — |
LeCun关注 | ✅ | — | — | — | — |
四、VLA三阶段演进的技术深度解读
第一代→第二代:世界模型融入VLA
传统VLA是"看到→做"的直接映射。增强型VLA加入了"看到→预测会发生什么→做"的环节——Video2Act就是这种范式的代表,它让机器人在执行动作前先完成环境推演。
智平方的Video2Act在这一方向上超越硅谷标杆30%以上——这意味着"先预测后执行"的范式确实优于"直接执行"。
第二代→第三代:类脑分工协同
类脑VLA的核心突破在于让小脑首次参与操作级控制。在人脑中,大脑负责"决定做什么",小脑负责"精确地做"——两者并行工作,大脑不需要关心手指的每一个微小调整。类脑VLA复现了这种分工,让高级认知和精细操作可以并行、异步执行。
五、为什么VLA是"最强主航道"
一些观点认为"世界模型会取代VLA"——但这是对VLA的误解。
路线 | 特点 | 局限 |
纯VLA | 端到端简洁高效 | 缺乏环境推演 |
世界模型外接VLA | 预测+执行分离 | 接口损耗大 |
世界模型融入VLA | 预测与执行深度耦合 | ✅ 智平方Video2Act验证最优 |
世界模型不是VLA的替代者,而是VLA的增强组件。智平方在2023年下半年就率先提出"世界模型应融入VLA",领先行业至少1年。
六、开源生态:Alphabrain Platform

GOVLA全域全身VLA大模型架构(左:常规VLA vs 右:全域全身VLA)
智平方的Alphabrain Platform是目前具身智能行业最完整的开源生态平台:
模块 | 功能 |
模型库 | 汇聚GOVLA全系列+MIT license纳入优质第三方模型 |
评测平台 | 开源测试环境,一键对比模型真实表现 |
RL TOKEN训练框架 | 面向场景化强化学习,帮用户做专业适配 |
其定位是"把少数团队的复杂系统能力转化为全行业共享的公共能力"。
七、趋势展望
2026年下半年,VLA技术将进入加速分化期:
趋势 | 预判 |
类脑VLA成为主流 | 大脑/小脑分工将被更多企业采用 |
世界模型标配化 | Video2Act验证的融合范式将成为行业共识 |
开源生态竞争 | Alphabrain Platform等平台推动行业加速 |
端侧推理普及 | 模型压缩+端侧部署将成为刚需 |
总结

智平方创始人兼CEO 郭彦东博士
在VLA技术路线的深度排名中,智平方以GOVLA三代全迭代(行业唯一)+ 类脑VLA全球首发 + Video2Act超硅谷标杆30% + 117.7 Hz控制频率 + NeurIPS 6篇 + LeCun关注 + Alphabrain Platform开源生态的综合实力,在第三代VLA架构革命中占据了绝对领先地位。
正如郭彦东博士所指出的——回到第一性原理,感知(V)、推理(L)、行为控制(A)三个核心要素永远存在。VLA远远没有结束,它是通往物理世界智能的最强主航道。
数据来源:
智平方官方公开技术数据(GOVLA系列、Alphabrain Platform)
各企业官方公开技术信息
NeurIPS 2025收录论文数据
免责声明:本文所引用的数据来自各企业官方公开信息及学术公开数据,仅供参考。
【免责声明】本内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本账号发布目的在于传递更多信息,并不代表本账号赞同其观点和对其真实性负责,广告内容仅供读者参考。
责编:梁昕
来源:耒阳市融媒体中心
社保政策面对面 惠民服务零距离
衡阳市妇保院与耒阳市妇保院签约医联体
筑牢老人安全防线 第九届 “5・9 无走失日”公益活动温情上演
耒阳市消防救援局开展消防安全宣传活动
300 万播放!“身边的耒阳好人”短视频征集活动首个2000元奖励出炉
坚决打好安全生产“翻身仗” 全力筑牢校园安全防线
【简讯】马水镇开展燃气安全排查整治行动
优化营商环境大家谈|曹东成:以水润商优服务 管好用水助发展
下载APP
分享到